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摘 要 : 针对 隐私 保护 中 数据 隐私 量 和 数据 效用 的 量化 问题 ， 基 于 度量 空间 和 范 数 基 本 原理 提出 了 一 种 结构 化 数据 
隐私 与 数据 效用 度量 模型 。 首 先 ， 给 出 数据 数值 化 处 理 方法 ， 将 数据 表 转 变 为 矩阵 进行 运算 ; 其 次 ， 引 入 隐私 偏好 
鸣 数 ， 度 量 敏感 属性 随时 间 的 变化 ; 然后 ， ee 型 ， 量 化 隐私 保护 技术 产生 的 变化 ; 最 后 ， 构 建 度量 空 
间 ， 给 出 了 隐私 量 、 数 据 效用 和 隐私 保护 程度 计算 式 。 通 过 实例 分 析 ， 所 建立 的 度量 模型 能 够 有 效 反映 隐私 信息 量 。 
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Abstract: Aiming at the quantification of data privacy and data utility in privacy protection, based on the basic principles of 
metric space and norm, this paper proposed a privacy and data utility metric model. First, it gave the data numerical 
processing method. The data was converted into a matrix for calculation. Secondly, it introduced a privacy preference 
function to measure the change of sensitive attributes over time. Then, it analyzed the privacy protection model and 
quantified the data changes generated by the privacy protection technology. Finally, this paper built a metric space, and gave 
privacy amount, data utility and privacy protection calculations. Simulation experiments show that the established metric 
model can effectively reflect the amount of private information. 
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针对 概率 统计 方法 的 隐私 度量 方法 ， 在 2007 年 和 2010 
年 ,Li 等 人 (24 基于 匿名 和 多 样 性 提出 了 一 种 计算 敏感 属 
如 今 已 经 进入 了 数据 的 时 代 ， 数 据 渗透 在 每 一 个 行业 和 性 值 分 布 的 度量 方法 ,引用 EMD(earth mover’s distance) 方 法 
业务 职能 领域 ， 成 为 重要 的 生产 要 素 。 在 现实 生活 中 ， 有 很 ” 计算 数据 中 敏感 属性 值 的 全 局 分 布 和 任意 等 价 类 中 同一 敏感 
多 机 构 的 数据 需要 定期 对 外 发 布 ， 比 如 : 医疗 数据 ， 交 通 数 属性 值 分 布 的 差异 度 , 差异 度 越 小 , 隐私 信息 泄露 风险 越 小 。 
据 ， 政 务 数据 等 等 。 这 些 数据 存在 着 大 量 的 个 人 隐私 信息 ， 于 EMD 方法 没有 考虑 等 价 类 与 数据 间 敏 感 属性 值 分 布 的 
旦 泄露 将 会 带 来 不 可 估量 的 损失 。 在 数据 发 布 领域 ， 为 了 稳定 性 ， 在 2014 年 ，Zhang 等 人 BI 基于 EMD 方法 和 KL 散 
防止 隐私 数据 完全 对 外 公开 ， 数 据 发 布 机 构 通 常 采 取 一 定 的 。 度 提 出 了 一 种 EKM 度量 方法 ， 通 过 分 布 差异 度 和 稳定 性 差 
隐私 保护 技术 手段 隐藏 用 户 的 敏感 属性 。 处 理 后 的 数据 是 否 异 度 两 层 因 素来 度量 隐私 泄露 风险 大 小 。 根 据 敏感 属性 值 的 
还 会 泄露 隐私 ， 隐 私 量 有 多 大 ， 对 数据 可 用 性 造成 多 大 的 影 ”概率 分 布 , 在 2015 年 -2017 年 , 文献 [4~6] 提 出 了 一 种 基于 贝 
千 ， 这 些 因素 是 影响 数据 发 布 的 关键 因素 。 如 若 不 能 有 效 度 。 叶 斯 推理 的 度量 隐私 信息 泄露 的 方法 ， 通 过 分 析 比 较 推测 的 
量 隐 私 及 数据 效用 ， 将 会 面临 有 数据 不 敢 发 布 的 困境 ， 从 而 言 息 与 隐私 信息 之 间 的 差异 度 来 度量 隐私 信息 泄露 的 风险 ， 
导致 数据 资源 开放 共享 程度 低 、 数 据 价 值 难以 被 有 效 挖掘 利 两 者 之 间 的 差异 度 越 小 ， 隐 私信 息 汇 露 风 险 越 大 。 
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用 ， 因 此 隐私 度量 的 研究 迫在眉睫 。 言 息 粹 MI(information entropy) 作 为 通信 理论 的 基础 ， 是 
隐私 度量 方法 分 为 三 类 ， 一 是 根据 概率 统计 方法 ， 利 用 种 量化 信息 不 确定 性 的 方法 。 针 对 利用 信息 精 的 隐私 度量 
概率 分 布 信息 来 推理 推断 隐私 信息 的 可 能 性 来 度量 隐私 泄露 方法 ， 在 2002 年 ，Diaz 等 人 [8 最 早 将 信息 粹 应 用 于 隐私 保 


风险 ; 二 是 利用 信息 焙 ， 根 ] We 的 不 确 护 ， 提 出 用 信息 炉 来 度量 匿名 通信 系统 的 匿名 性 。2006 年 ， 
定 度 来 度量 隐私 信息 ， 三 是 结合 集 对 分 析 理 论 [17 一 种 定 。 ClauB 等 人 1 引用 信息 炉 描 述 数 据 集 中 隐私 信息 的 不 确定 性 。 
ee te Re dt 2007 年 ，Hoh 等 人 09 基 于 信息 精 来 度量 轨迹 跟踪 的 不 确定 
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度 ， 提 出 了 一 个 新 的 时 间 混 淆 度量 来 表示 匿名 的 位 置 轨迹 的 
隐私 程度 。2009 年 ，Ma 等 人 tM 采用 信息 理论 方法 ,将 隐 
私 量化 为 位 置信 息 与 特定 的 个 人 联系 的 不 确定 性 来 量化 每 个 
用 户 的 位 置 隐私 水 平 。Shokri 等 人 W031 提出 了 一 种 基于 扭曲 的 
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敏感 数据 添加 随机 噪声 使 得 敏感 数据 失真 从 而 达到 隐私 保护 
的 目的 ， 同 时 保持 一 定 的 数据 效用 。 差 分 隐私 的 出 发 点 是 通 
过 添加 随机 噪声 ， 使 得 两 个 至 多 相差 一 条 记录 的 数据 集 不 可 
区 分 ， 避 人 免 通 过 查询 结果 来 推断 个 体 的 隐私 信息 。 


隐私 度量 方法 ， 通 过 比较 攻击 者 观察 得 到 的 跟踪 用 户 的 运动 
轨迹 与 用 户 真 实 运 动 轨迹 之 间 的 差异 来 反映 用 户 的 隐私 水 
平 。2011 年 ，Chen 等 人 0 提出 运用 条 件 粒 来 度量 LBS 中 的 
查询 隐私 程度 ， 用 以 测量 用 户 在 LBS 中 的 查询 隐私 。2012 
年 ，Yang 等 人 05 从 网 络 访问 的 敏感 信息 识别 个 人 身份 入 手 ， 
提出 了 两 种 类 型 的 攻击 者 ， 运 用 炉 度 量 这 两 种 类 型 的 攻击 对 
一 般 的 网 络 用 户 的 威胁 。2016 年 ， 彭 等 人 09 为 了 使 信息 料 的 
度量 更 为 直观 ， 将 隐私 保护 系统 描述 成 为 一 种 通信 模型 ， 提 
出 了 几 种 隐私 保护 信息 箭 模型 ， 从 理论 的 角度 上 给 出 了 具有 
通用 特性 的 隐私 度量 方法 。 

集 对 分 析 理 论 07 是 具有 一 定 联系 的 两 个 集合 之 间 的 互 
相关 系 、 制 约 、 影 响 的 集合 对 子 ， 通 过 建立 同 、 异 、 反 联系 
数 从 而 刻画 事物 共有 属性 的 确定 与 不 确定 关系 。 在 2015 年 ， 
Yan 等 人 103 提出 一 种 新 的 用 户 隐 私 保护 度量 集 对 分 析 方 法 ， 
在 数据 库 隐私 保护 、 位 置 隐私 保护 和 轨迹 隐私 保护 三 种 不 同 
应 用 模式 下 ， 建 立 了 隐私 度量 的 体系 标准 和 内 容 。 

文献 [19~23,28~30] 也 对 隐私 度量 的 研究 进行 了 相关 拱 
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定义 2 差分 隐私 。 设 数据 集 D 和 p' 具有 相同 的 属性 结 

构 ， 两 个 数据 集 至 多 相差 一 条 数据 记录 ，M 为 随机 算法 ， 
Range(M) 为 算法 M 的 取 值 范围 ，0c Range(M) 是 数据 集 上 的 
输出 结果 ， 如 果 算 法 M 满足 

Pr(M(D)e0) 。 。 

Pr(M(D)sO)” 
称 算法 M 满足 = -差分 隐私 保护 , 称 : 为 隐私 保护 预算 。 通 过 
限制 2 的 大 小 来 控制 隐私 保护 程度 ， 即 = 越 小 ， 添 加 的 随机 
噪声 越 大 ， 隐 私 保护 程度 越 高 , 但 数据 效用 越 低 ; 同 理 ，= 越 
大 ， 添 加 的 随机 噪声 越 小 ， 隐 私 保护 程度 越 低 ， 数 据 效用 越 
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de 


针对 数值 型 数据 ， 可 以 通过 添加 拉 普 拉 斯 分 布 (Laplace) 
的 噪声 来 提供 = -差分 隐私 保护 。 
设 随 机 变量 * 的 概率 密度 函数 为 
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其 中 : 4 是 位 置 参数 ，b 是 尺度 参数 ， 且 2>0， 称 随机 变量 = 


述 和 研究 ， 由 此 看 来 ， 对 隐私 信息 度量 的 方法 不 断 在 发 展 ， 
并 且 使 用 的 方法 理论 也 不 断 更 新 ， 考 虑 更 为 全 面 的 隐私 度量 
方法 有 待 深入 研究 。 本 文 为 了 使 隐私 信息 量 表达 的 更 为 直观 ， 
从 数学 的 角度 ， 借 助 于 度量 空间 的 基本 理论 ， 提 出 一 种 结构 
化 数据 的 隐私 与 数据 效用 的 度量 模型 。 


1 ”相关 理论 


1.1 度量 空间 
度量 空间 ， 在 数学 中 是 指 一 个 集合 ， 
意 元 素 之 间 的 距离 是 可 定义 的 。 
定义 1 度量 空间 。 设 R 是 一 个 非 空 的 集合 ，R 中 的 元 
素 称 为 点 , 对 R 中 任意 两 个 点 *Y 都 给 定 一 个 实数 p(x,y) 与 他 
们 对 应 ， 并 且 满 足 : 
a) PC,y)>0，p(%,y)=0 当 上 且 仅 当 *=y; 
b) 对 任意 的 点 zeR， p(x,y) p(x,z)+p(y,2). 
称 p(x,y) 是 两 点 *y 之 间 的 距离 ， 称 R 按照 距离 p(w,y) 成 为 度 
量 空间 ， 记 为 (R,o) 。 
根据 度量 空间 的 定义 ， 可 以 得 出 如 下 性 质 : 
cj) omy)=o00 (对 称 性 ) 
d) 对 任何 yy,zeR，|p(x,z)-p(y,2)|< p(x,y). 
1.2 ”向量 和 矩阵 范 数 
范 数 是 泛 函 分 析 中 的 一 个 基本 概念 ， 常 常 被 用 来 度量 某 
个 空间 中 每 个 元 素 的 长 度 或 大 小 。 下 面 介 绍 向 量 空 间 和 和 矩阵 
空间 的 范 数 。 


设 n=(n,m,…,m) 是 一 个 向 量 ， A= (dij) 是 一 个 矩阵 : 


向 量 1- 范 数 | =2 | ; 


且 该 集合 中 的 任 


向 量 2 范 数 In = 


矩阵 下 - 范 数 |4l; -Se . 


1.3 差分 隐私 
差分 隐私 [35 是 一 种 基于 数据 失 


的 隐私 保护 技术 ， 即 对 


服从 参数 4,2 的 拉 普 拉 斯 分 布 ， 即 x~ Zaplace(pD) 。 它 的 累计 


1 _G-O 
5 bs ,xX<H 
FO= JoOw=| op 
二 x>1 
ea 
-Je-al-。 b ] 
它 的 逆 累 计 分 布 函 数 为 


1 1 
Fi(p) =pbsen(p -Din 2p -HD 


通过 服从 均匀 分 布 的 随机 数 和 拉 布 拉 斯 分 布 的 逆 累 计 分 
布 函数 来 产生 服从 拉 普 拉 斯 分 布 的 随机 数 ， 从 而 对 数据 添加 
噪声 ， 以 满足 差分 隐私 保护 。 
1.4 变量 、 符 号 及 名 词 相 关 说 明 

1) 名 词 解释 

a) 数 据 效用 是 指 经 过 处 理 之 后 的 数据 与 没有 处 理 的 同 组 
数据 的 相同 程度 或 者 真实 程度 ， 数 据 真 实 性 越 高 ， 数 据 效 用 
越 好 ; 

b) 隐 私 偏好 时 效 性 是 指 同一 个 体 对 同一 敏感 属性 的 
程度 会 随时 间 的 增加 而 改变 。 比 如 ， 个 体 患 有 疾病 “肿瘤 ” 
在 患 病 期 间 ， 他 并 不 希望 别人 知道 他 所 患 的 疾病 ， 此 时 
对 疾病 这 一 敏感 数据 重视 程度 高 ， 但 在 他 康复 之 后 ， 他 
为 让 别人 知道 他 曾经 所 患 的 “肿瘤 ”疾病 对 现在 没有 影响 ， 
姑 此 ， 随 着 时 间 的 迁移 ， 该 个 体 对 疾病 这 一 敏感 属性 重视 程 
度 越 来 越 低 。 

2) 变 量 及 符号 说 明 

本 文 涉及 到 的 矩阵 的 相关 符号 及 运算 说 明 ， 设 4 是 一 个 
于 行 上 列 和 矩阵 


Q4 Ga2 a 

021 G2 4 
A : 

Un dn2 Gm 


矩阵 4 简写 为 4=(@ij)ws， 又 设 8 是 一 个 与 年 阵 4 行 和 列 
相同 的 矩阵 了 = (8)w。， 相 关 运 算 表示 如 下 : 


+:A+B=(a;; + bi j ) yn ; 
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“kA=(koaij)wma ,是 一 个 实数 ; 
@: A@B=(a jb a: 


©:AQOB=(cj)was Ci 


a /bi 


1 


,(b;; #0) 


,(b;j =0) ? 


max : max(A)= max max{a, ;} . 


隐私 与 数据 效用 度量 模型 


为 了 度量 数据 发 布 中 结构 化 数据 的 隐私 量 
技术 处 理 后 的 数据 效用 ， 


个 


等 : 


[经 过 隐私 保 


原理 构建 
。 首 先 ， 给 出 结构 


9 


mm 璐 次 革 区 此 炎 胜 讨 和 学 


即 : 


观 因素 的 影响 ， 
的 函数 ， 用 
急 私 保护 模型 对 
阵 的 基础 
用 以 度量 隐私 和 数 # 
数据 数值 化 处 理 
在 结构 化 数据 
显示 标志 符 属 
(quasi-identifier attribute)、 敏 感 属性 


以 描 


适用 于 结构 


据 进 行 数值 化 得 到 敏感 数据 矩阵 ; 
结合 隐私 偏好 的 
敏感 数据 的 敏感 性 


述 


4 一 


本 文 基于 泛 


函 分 析 中 度量 空间 基 
化 数据 的 隐私 与 数据 效用 度量 模 


化 数据 进行 数值 化 


敏感 数据 矩阵 带 来 的 


上 进行 


量化 ; 


由 


后 ， 构 建 敏 


到 


的 效用 。 


非 敏感 属性 nonsensitive attribute, NA)。 


处 理 方法 


其 次 ， 考 虑 用 户 隐私 受 
人 对 效 性 ， 引 入 三 类 隐私 偏 
变化 过 程 ， 然后， 分 


， 将 结构 化 


变化 ， 


感 数据 矩阵 之 间 的 距 


E(sensitive attribute, SA) 和 


ke = 万 人 后 EL 
于 显示 标志 符 属性 


在 敏感 数据 


FP， 每 一 个 体 记录 的 属性 可 以 分 为 四 类 ， 


性 (explicit identifier attribute)、 诊 


上 一 -二 屋 
标志 属 | 


在 数据 发 布 中 会 直接 去 除 ， 准 标志 属性 一 般 具 有 数据 数值 化 
方法 ， 非 敏感 属性 不 在 隐私 保护 的 范围 内 ， 因 此 ， 本 文 只 对 
敏感 属性 进行 数值 化 处 理 。 一 般 情 况 下 ， 本 文 将 含 敏感 属性 
的 结构 化 数据 表 按 表 1 的 形式 进行 描述 。 
表 1 含 敏感 属性 的 结构 化 数据 形式 化 表 
Table 1 Formal table of structured data with sensitive attributes 
41 42 SAn 

Di dataii datai.2 datain 

D; dataz.1 data2.2 data2.n 

Dn datam.!1 datam.2 datam.n 


其 中 D; 表示 第 i 个 个 体 (用 


户 )， 


54) 表示 第 j 个 敏感 属性 ， 


datai; 表示 第 i 个 个 体 的 第 ij 个 敏感 属性 值 。 


素 的 集合 ， 


得 到 


定义 3 非 负数 值 妈 
f 是 一 个 映 身 


据 矩 阵 。 
隐私 偏好 量化 
一 般 而 言 ， 在 结构 化 数据 表 中 ， 敏 感 属性 中 的 敏感 度 是 


2.2 


按 敏感 信息 


数 ] 


数 ; 


此 露 之 后 所 造成 的 影响 进 
体 所 患 疾病 这 一 栏 敏感 属性 


射 。 


值 越 大 


的 数 提 


是 一 个 模糊 的 概念 ， 
私 数据 不 愿 被 披露 的 程 


的 敏感 度 高 。 但 实际 情况 中 ， 个 体 看 待 


1=1 2…m j= 


D=(dij)wm 表示 为 敏感 数 


设 X 是 一 个 含有 限 个 非 数 
对 ， 如 果 对 每 个 XEX ， 
fC)eRrU{0} ， 则 7 为 非 负 数值 映射 ， 所 有 的 非 负 数值 映射 
构成 的 集合 记 为 F。 
根据 每 一 个 敏感 属性 的 
感性 越 敏感 映射 数 
太太 …, 记 ， 将 表 1 进行 数据 数值 
dij; = f;(data; ;), 


1 结构 化 数据 数值 化 处 理 结果 , 用 


自身 敏感 性 的 特点 ， 按 照 数据 敏 
的 原则 ， 选 取 7 个 非 负数 值 映射 
化 计算 ， 即 


| 


值 元 
满足 


行 等 级 划分 。 比 如 ， 个 
,“ 肿 瘤 ” 的 敏感 度 


要 比 “感冒 ” 


定义 


4 ”隐私 偏好 向 


自身 数据 是 否 为 敏感 
个 人 隐私 偏好 表现 了 用 户 对 自己 隐 


量 。 设 pi 是 某 一 个 体 对 敏感 属性 54 


不 愿 被 披露 程度 权重 值 ， 由 
居 披 露 程度 权重 值 组 成 站 


同一 个 体 对 每 一 敏感 属性 
的 向 量 P=(pi, PP 


满足 


结构 化 数据 的 隐私 与 数据 效用 度量 模型 


称 2 


以 通 


的 2- 范 数 |p 


表现 


对 每 


有 个 


P=(pi,Py…;Pn) =(pPij)wa 。 通 过 对 敏感 数 1 
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|plh =1,0<p;<1G=1,2,.…,n) 
为 这 一 个 体 的 隐私 偏好 向 量 。 
个 体 的 隐私 偏好 向 量 可 以 由 个 体 的 主观 评价 确定 ， 也 可 
过 个 体 的 历史 数据 分 析 推 断 得 出 。 个 体 的 隐私 偏好 向 量 
,反映 了 个 体 的 隐私 偏好 类 型 :zl 值 接近 1 时 ， 
了 个 体 越 集 中 重视 某 一 或 多 个 敏感 属性 ， 而 忽略 其 他 敏 
性 ;lzl 值 接近 Vyn 时 ， 表 现 了 个 体 不 具有 隐私 偏好 ， 
一 敏感 属性 重视 程度 相同 。 
设 P=(pinsPi2…,Pin) 为 第 i 个 个 体 的 隐私 偏好 向 量 ， 由 所 


体 的 隐私 偏好 向 量 构成 的 矩阵 记 为 隐私 偏好 和 天 阵 P , 即 : 
据 和 矩阵 D 与 P 的 合成 


G=D8P=(dij*Pij)ma 得 到 带 有 隐私 偏好 的 敏感 数据 矩阵 G 。 


化 隐 


进一步 ， 为 了 描述 隐私 偏好 随时 间 迁 移 的 变化 情况 ， 量 
私 偏好 的 时 效 性 ， 本 文 引入 三 类 隐私 偏好 函数 。 


a,be 


的 增 


的 增 


度 ， 


间 增 
好 函 
区 


POD)=(p;; (0)),., 


阵 D 


好 函 
2.3 


隐私 
术 可 
的 隐 
为 将 


方法 
造成 


敏感 


隐私 


偏差 
的 隐 
即 : 
数据 


即 v0 为 


即 p() 为 有 界 递减 函数 ; 


数 和 矩阵。 


Pij(t) ， | 


定义 5 隐私 偏好 函数 。 设 pd) 是 [0,+ol 上 的 函数 ， 
[0] ， 且 a<b， 满 足 


dt {PD}=a 


sup {9(D)}=b 
te[0,+0] 


你 9 为 隐私 偏好 函数 。 


第 一 类 隐私 偏好 函数 。 个 体 看 待 某 一 敏感 属性 会 随时 间 
加 , 表现 出 越 来 越 重视 该 敏感 属性 , 且 重 视 程 度 有 上 限 ， 
界 递增 函 数 ; 
第 二 类 隐私 偏好 函数 。 个 体 看 待 某 一 敏感 属性 会 随时 间 
加 , 表现 出 越 来 越 忽视 该 敏感 属性 , 且 和 忽视 程度 有 下 限 ， 


mh 


六 


第 三 类 隐私 偏好 函数 。 个 体 对 待 某 一 敏感 属性 的 重视 程 
不 会 随时 间 的 增加 而 受到 影响 ， 即 p00 为 常数 函数 。 
这 三 类 函数 能 够 简明 地 描述 个 体 对 敏感 属性 的 偏好 随时 
加 的 变化 情况 ， 而 其 他 复杂 的 类 型 均 可 由 这 三 类 隐私 偏 
数 分 段 构成 。 类 似 于 隐私 偏好 矩阵 ， 本 文 构建 隐私 偏好 
设 个 体 D; 的 敏感 属性 54; 的 隐私 偏好 函数 为 
全 部 个 体 的 每 一 敏感 属性 的 偏好 函数 组 成 的 矩阵 


称 为 隐私 偏好 函数 和 矩阵。 同样 ， 将 敏感 数据 算 


3 


与 PW 合成 GO=DQ@POD=(dwpvD) 得 到 带 


数 的 敏感 数据 矩阵 CO) 。 
隐私 保护 模型 分 析 
在 数据 发 布 前 ， 为 了 保护 数据 中 的 隐私 信息 ， 需 要 使 用 
保护 技术 对 数据 进行 处 理 ， 在 数据 发 布 领 域 隐私 保护 技 
以 分 为 两 大 类 : 基于 加 密 的 隐私 保护 技术 和 基于 非 加 密 
私 保 护 技术 。 本 文 将 对 结构 化 数据 使 用 隐私 保护 技术 视 
敏感 数据 矩阵 D 进行 相应 的 变化 ， 具 体 如 下 : 
a) 基 于 加 密 的 隐私 保护 技术 是 隐私 保护 效果 最 好 的 一 类 
， 加 密 的 数据 不 会 暴露 任何 隐私 信息 ， 但 加 密 的 数据 会 
数据 不 可 用 。 因 此 ， 使 用 基于 加 密 的 隐私 保护 技术 后 ， 
数据 矩阵 变 为 零 矩 阵 ， 即 : D 王 D'=0; 
b) 基 于 非 加 密 的 隐私 保护 技术 又 可 分 为 基于 数据 失 
保护 技术 和 基于 数据 匿名 的 隐私 保护 技术 。 数 据 失 


隐私 偏 


的 
方 


法 会 造成 数据 结果 与 真实 数据 发 生 一 定 的 偏差 ， 本 文 将 这 一 


视 为 敏感 数据 矩阵 上 的 偏差 ， 也 就 是 使 用 基于 数据 失真 
私 保护 技术 后 ， 人 敏感 数据 矩阵 变 为 数据 加 噪 后 的 矩阵 ， 
DD=D+AD ， 其 中 AD=(Ad)om，4Adv 为 4 的 偏差 。 

匿名 方法 一 定 程度 上 能 够 使 攻击 者 不 能 判别 隐私 信息 所 
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属 的 具体 个 体 ， 从 而 保护 了 个 人 隐私 。 数 据 匿名 的 基本 原理 wdz|m) 的 取 值 范围 为 Ion ， 其 值 越 接近 1， 表 明 处 理 后 的 数 
是 让 发 布 的 数据 中 存在 一 定数 量 的 不 可 区 分 的 数据 ， 但 攻击 。“ 据 越 接近 真实 值 。 
者 可 以 以 一 定 的 概率 得 到 原始 的 敏感 数据 ， 从 敏感 数据 矩阵 对 隐私 保护 程度 的 度量 也 是 隐私 度量 的 一 个 重要 方面 ， 
角度 来 看 ， 使 用 基于 数据 匿名 的 隐私 保护 技术 后 ， 会 以 一 定 。“ 它 与 数据 效用 一 起 可 以 评价 隐私 保护 模型 的 好 坏 。 目 前 ， 越 
概率 隐藏 敏感 信息 ,敏感 数据 矩 阵 Dp 中 的 元 素 4 会 以 一 定 概 ”来 越 多 的 研究 者 在 不 断 改进 隐私 保护 模型 ， 达 到 隐私 保护 程 
的 的 RE sen。 度 高 并 上 数据 效用 也 高 的 目的 。 本 文采 用 使 用 隐私 保护 技术 

:41 变 成 0，d 0 ，% sD， 对 于 敏感 数据 答 阵 产生 理 后 的 数据 隐私 量 的 减少 情况 来 衡量 隐私 保护 程度 。 

设 是 一 个 隐私 保护 算法 ， 它 将 敏感 数据 矩阵 p 变 成 
六 ， 算 法 对 的 隐私 保护 程度 


的 变化 ， 本 文 使 用 期 望 来 量化 ， 即 PD 性 D'=((-qij)*dij),w。 
通过 的 隐私 保护 模型 的 量化 分 析 ， 可 以 衡量 隐私 保护 技 


LD)= p(max{D'}:D, max{D}*D') 
术 的 隐私 保护 程度 和 使 用 隐私 保护 技术 后 数据 的 效用 。 lmax{D'}-D; 
2.4 隐私 与 数据 效用 度量 2.5 模型 适用 范围 
通过 结构 化 数据 的 数值 化 、 隐 私 偏好 的 量化 和 隐私 保护 文献 [19] 较 为 全 面 地 列 出 了 隐私 度量 方法 ， 如 不 确定 性 


模型 的 分 析 , 将 对 结构 化 数据 中 隐私 和 数据 效用 的 量化 分 析 ， 度量、 信息 增加 或 损失 度量 、 数 据 集 相 相似 性 度量 、 不 可 区 分 
转换 为 对 敏感 数据 矩阵 的 度量 ， 能 够 更 直观 地 了 解数 据 中 的 ”性 度量 、 政 手 攻击 成 功 概率 度量 和 时 间 、 误 差 和 精度 的 度量 
隐私 信息 。 等 。 本 文 所 提出 的 结构 化 数据 的 隐私 与 效用 度量 模型 是 针对 


结构 化 数据 数值 化 的 敏感 数据 矩阵 所 构成 的 集合 记 为 ”于 数据 发 布 领域 中 结构 化 数据 的 隐私 信息 量 、 数 据 可 用 性 和 
D，D,D,eD ， 满 足 IDl:=|Di 时 ， 称 D=D (这 里 的 “=” ”隐私 保护 程度 的 量化 ， 其 方法 可 以 用 于 信息 损失 的 度量 、 数 
并 非 两 个 矩阵 相同 )， 设 距离 据 集 相 似 性 度量 ， 但 不 限于 此 ， 如 : 用 户 身份 认证 过 程 中 用 

户 身份 的 匿名 性 、 登 录 行 为 的 不 可 追踪 性 R26 2 可 用 基于 匿名 
PpP(D,D,)=|Dl; -|D,l| gE i yd ie i 
的 隐私 保护 技术 量化 方法 进行 量化 ， 访 问 裤 制 结构 中 访问 
则 集合 2 与 距离 2 构成 度量 空间 。 策略 可 将 其 数据 结构 化 后 进行 度量 。 本 文 所 提出 的 隐私 度量 
证 明 集合 Dp 为 非 空 集合 ， 对 任意 的 D,DeD ， 有 模型 其 目的 是 为 了 让 数据 拥有 者 更 为 直观 地 掌握 数据 中 的 隐 
下 私信 息 。 下 面 通过 实例 分 析 进 行 展 现 。 


Pp(D,D,)=|ID, -|Dls|>0 » 


上 


3 ”实例 分 析 


PD,D)=0 SD -Dl eIDl = SD -=D 


政务 数据 包含 了 大 量 的 个 人 信息 ， 非 常 具 有 挖掘 价值 ， 
满足 定义 1 的 性 质 a);， 对 任意 的 D;eD， 但 政务 数据 包含 的 敏感 数据 太 多 ， 导 致 政务 部 门 不 敢 发 布 数 
p(Di,D;) + p(D;,D,) = 由 站 一 | 站 PP 据 , 采 取 的 是 与 数据 接收 机 构 签约 合作 的 方式 进行 数据 共享 。 
=D -Dsl + Dl -Dl 隐私 与 数据 效用 的 度量 能 够 使 数据 发 布 者 有 效 把 握 发 布 数据 
= 人 De -lpsll 的 隐私 和 数据 的 可 用 性 ,对 评估 隐私 泄露 风险 有 重要 的 意义 。 
=P(Di,D,) 为 了 体现 实验 的 准确 性 和 科学 性 , 采用 公开 的 UCI 机 器 学 习 
满足 定义 1 的 性 质 b)， 因 此 构成 (2,p) 度量 空间 。 数据 库 中 的 Adult 数据 来 完成 实验 分 析 , 该 数据 包含 了 48842 
结构 化 数据 的 所 含 的 隐私 信息 量 转换 为 敏感 数据 矩阵 的 条 记录 和 14 项 属性 。 下 面 选取 包含 年 龄 (Age)、 学 历 (Education) 
隐私 量 来 衡量 ， 敏 感 数据 矩阵 是 度量 空间 (DP,p) 的 点 ， 从 而 “和 职业 (Occupation) 属 性 的 前 5 条 记录 作为 实验 室 数 据 集 D1， 
定义 度量 空间 (P,o) 点 的 大 小 ， 这 里 自然 采用 范 数 来 定义 。 并 在 Di 的 基础 上 做 简单 的 修改 作为 实验 数据 集 D，( 表 2)， 


于 每 个 结构 化 数据 表 敏 感 属 性 特点 不 同 ， 非 负数 值 映射 的 ”数据 集 Ds 用 于 与 数据 集 D1 的 隐私 量 进行 对 比分 析 ， 并 用 差 


值 域 不 同 ， 因 此 在 计算 敏感 数据 矩阵 的 隐私 量 时 ， 将 数据 归 ”分 隐私 对 数据 集 Di 进行 保护 来 对 度量 模型 进行 分 析 , 分 析 数 
一 化 。 据 的 隐私 量 、 带 隐私 偏好 数据 的 隐私 量 、 数 据 效 用 和 隐私 保 
定义 6 隐私 量 。 设 DeD， 用 |D| 表 示 敏 感 数 据 矩 阵 的 。” 护 程 度 。 
隐私 量 ， 则 表 2 两 组 实验 数据 表 
il- D _ pl Table 2 Two experimental data tables 
max{D}l; Di age education occupation 


根据 定义 6， 带 有 隐私 偏好 的 敏感 数据 矩阵 G 的 隐私 量 
为 IGl=lc/max{G 北 , 带 有 隐私 偏好 函数 的 敏感 数据 矩阵 G0 也 


1 39 Bachelors Adm-clerical 

系 
隐私 量 为 |cOl=lcCy/maxfcO) 儿 。 3 38 HS-grad Handlers-cleaners 

4 

5 


地 


50 Bachelors Exec-managerial 


数据 效用 的 度量 需要 有 一 个 参考 点 ， 由 于 所 研究 的 数据 
发 布 没 有 指定 的 发 布 环境 ， 不 知道 接收 方 需要 何 种 数据 ， 因 28 Bachelors Prof-specialty 
此 ， 本 文采 用 与 原始 数据 相 比 较 的 方法 来 度量 丢失 的 信息 ， D, Age Education Occupation 


53 Bachelors Handlers-cleaners 


即 ; 将 原始 数据 表 中 每 一 个 数据 的 数据 量 记 为 1， 经 过 处 理 1 39 Bachelors Adm-clerical 
后 数据 的 数据 量 取 值 范围 为 [0,1] 。 2 50 Bachelors Exec-managerial 
定义 7 数据 效用 。 设 D 是 原始 敏感 数据 和 矩 了 泗 ，D' 是 D 3 38 HS-grad Exec-managerial 
经 过 处 理 过 的 敏感 数据 和 矩阵， 有 旦 具有 相同 的 结构 ，D 和 p' 的 4 53 Bachelors Handlers-cleaners 
数据 量 分 别 用 U0(D) 和 UD 来 表示 ， 则 5 28 Bachelors Prof-specialty 
U(D)=|D OD ,U0(D)=|D' OD; 按照 “age”“education ”和 “occupation” 三 类 敏感 数据 
称 UDID)=UCDYU(D) 为 数据 D 经 过 处 理 后 的 数据 效用 。 的 敏感 级 别 构建 非 负数 值 瞻 射 


201904.00026v1 


chinaXiv 


录用 定稿 谢 明 明 ， 
收入 : fiW=1- Srl0,50) f=0.x>50; 
职业 : 万 :Baochnelors —>0.50, HS— grad 一 0.71 ; 
Adm— clerical 一 0.95 
Exec—managerial 一 0.65 
病症 : 


Prof — specialty 一 0 


经 过 数据 数值 化 处 理 得 到 两 组 表格 敏感 数 扩 


0.44 
0.00 
D,=| 0.48 
0.00 
0.88 


0.50 
0.50 
0.71 
0.50 
0.50 


0.95 
0.65 
0.34 |， 
0.34 
0.78 


隐私 量 ， 
信息 量 比 
私 性 越 大 的 原则 ， 该 结果 与 表 


Di|=2.3223 ，|D, 


3 Handlers — cleaners —> 0.34 ; 


.78 


0.44 
0.00 
D,=| 0.48 
0.00 
0.88 


0.50 
0.50 
0.71 
0.50 
0.50 


2 相符 合 。 


下 面 给 出 隐私 偏好 函数 矩阵 ， 分 析 个 人 隐私 偏好 对 数据 
中 隐私 量 的 变化 过 程 。 设 PCDG s[0100]) 为 数据 表 Di 的 隐私 仿 


等 : 


矩阵 结果 为 
0.95 
0.65 
0.65 
0.34 
0.78 


根据 定义 6 敏感 数据 隐私 量 的 定义 ， 计 算 两 组 数据 表 的 
=2.3944 。 从 结果 可 以 看 出 D: 的 隐私 
Di 的 大 ， 按 照 “Occupation” 属 性 职业 人 数 越 少 隐 


好 函数 矩阵 
0.33 0.33 0.34 ] 
0.33 0.33 0.34+0.005r 
1+0.005rt 1+0.005t 1+0.005t 
0.33+0.0041 0.33 0.34—0.003r 
P(D=| 1+0.001t 1+0.001r 1+0.001r 
0.33+0.003r 0.33 0.34 十 0.0031 
1+0.0061 1+0.006t 1+0.0061 
0.33 0.33 0.34+0.0061 
L 1+0.006r 1+0.0061 1+0.0061 J 
带 有 隐私 偏好 函数 的 敏感 数据 矩阵 为 如 O=Z@PO 的 隐 
私 量 | 有 OO| 随时 间 的 变化 过 程 如 图 1 所 示 。 
带 隐私 偏好 函数 的 数据 隐私 量变 化 图 
。_D1 人 ) 的 隐私 量 
2.5[ 
Ny 
泊 2 
i 
1.5 上 
oo 10 20 30 4 6 6 7 8 90 1o0 
时 间 t 
图 1 隐私 量 |D.(D| 随时 间 的 变化 图 
Fig.1 Change of |D()| overtime 
从 图 1 可 以 看 出 带 有 隐私 偏好 函数 数据 集 Di 的 隐私 量 
随时 间 增 加 先 增 加 再 逐渐 减少 ， 并 在 1.8 附近 趋 于 稳定 。 说 
明 该 数据 发 布 后 ， 个 体 对 部 分 敏感 数据 重视 程度 降低 。 


接 下 来 使 用 差分 隐私 保护 技术 M， 分 析 数 据 的 隐私 ， 数 
据 效用 ， 隐 私 保护 程度 的 量 的 变化 。 
通过 拉 普 拉 斯 分 布 的 逆 累 计 分 布 函数 和 均匀 分 布 随机 序 


列 来 生成 满足 拉 普 拉 


拉 普 拉 斯 分 布 的 随机 数 
5 
"A 


标准 差 为 o 反映 了 添加 噪声 的 大 小 ， 


斯 分 布 的 随机 数 。 
[-0.5,0.5] 上 的 一 个 随机 数 ， 均 值 4=0 ， 标 ; 


sgn(a)*ln( 一 2|al) 


c 越 小 添加 的 噪声 


设 4 是 均匀 分 布 
作 差 为 c ， 则 满足 


就 越 小 。 
取 o=0.01， 


AD, =| -0.0070 -0.0012 
0.0043 
0.0000 


然后 对 数据 集 Di 进行 添加 噪声 , 当 原 始 数 扩 


结构 化 数据 的 隐私 与 数据 效用 度量 模型 
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针对 数据 集 Di 生成 随机 噪声 


0.0052 
0.0329 


0.0; 
0.0| 


0.0058 
-0.0066 


小 于 噪声 值 ， 则 加 噪 后 变 为 0， 


0.4348 
0.0000 


D' =Di-|IAD|=| 0.4730 


0.0000 
0.8734 


296 
066 


0.4704 
0.4934 
0.7088 
0.4957 
0.5000 


0.0068 
-0.0024 
-0.0136 

0.0014 

0.0121 


0.9432 
0.6476 
0.3264 
0.3386 
0.7679 


虽 敏 感 矩 阵 人 


根据 隐私 量 、 数 据 效用 的 定义 和 隐私 保护 程度 的 计算 式 ， 
计算 得 到 隐私 量 |o'|=23127 ,数据 效用 0(D'1D)=09877 ， 隐 私 
保护 程度 4(D)=0.0041 ， 可 以 看 出 通过 差分 隐私 保 


据 集 的 隐私 量 有 所 下 


程度 低 ， 数 据 效 


程度 会 变 高 ， 数 : 


0.4 


0.3 


隐私 保护 程度 和 数据 效 上 


0.2 上 


J IS]o 


时 效 


降 ， 由 于 o 的 取 值 很 小 ， 所 以 
当 逐 步 增加 添加 的 
j 变 低 ， 变 化 过 程 如 图 


汉 声 时 ， 


2 所 示 。 


护 后 ， 数 
隐私 保护 
隐私 保护 


私 量 、 隐 私 偏好 、 
立 的 模型 能 够 有 效 反 


图 2 隐私 保护 程度 与 数据 效 | 


data utility with noise 


Fig.2 The change of degree of privacy protection and 


0.15 02 0.25 
j 随 噪声 增加 的 变化 图 
度量 模型 中 的 隐 


通过 实例 分 析 所 构建 的 隐私 与 数据 效 
数据 效用 和 隐私 保护 程度 可 以 得 出 ， 所 建 
决 出 数据 中 的 隐私 量 以 及 隐私 保护 技术 


处 理 后 的 隐私 保护 程度 和 数据 效用 ， 为 数据 发 布 者 从 定量 的 


角度 有 效 把 握 数据 中 的 隐私 ， 从 而 为 计 
提供 一 定 的 依据 。 
4 ”结束 语 
隐私 度量 方法 目前 还 没 
基于 概率 统计 、 基 于 信息 论 和 基 卫 


套 完善 的 理论 ， 


效用 度量 模型 ， 


估 数 据 发 布 泄露 风险 


六 集 对 分 析 理 
存在 一 定 的 缺陷 。 本 文 提出 了 一 种 结构 化 数据 的 隐私 与 数据 
试图 从 构建 度量 空间 的 角度 出 发 ， 


之 间 的 距离 来 衡量 信息 


进行 的 定义 。 为 


据 不 可 计算 ， 因 此 给 出 结构 


比 数 提 


结构 化 数据 进行 数值 化 ， 转 为 对 数 扩 


户 隐 私 受 主观 因 
类 隐私 偏 


论 的 


素 的 影响 ， 结 合 隐私 偏好 的 时 效 
好 的 函数 ， 用 


前 常用 的 
或 多 或 少 


建立 信息 


的 差异 ， 并 对 信息 本 身 的 隐私 量 大 小 
了 度量 数据 发 布 中 结构 化 数据 的 隐私 量 和 经 
过 隐私 保护 技术 处 理 后 的 数据 效用 ， 首 先 


， 由 于 非 数 值 型 数 


居 进 行 数 值 化 处 理 方法 ， 


将 


虽 和 矩阵 的 计算 ， 


其 次 ， 


以 简明 描述 一 般 情况 下 隐私 的 敏感 性 


录用 定稿 谢 明 明 ， 等 : 纤 
变化 过 程 ， 然后， 分 析 隐 私 保 护 模型 的 特点 ， 对 隐私 保护 技 
术 的 改变 进行 量化 ， 最 后 ， 数据 矩阵 之 间 的 距离 ， 
用 以 度量 隐私 和 数据 的 效用 。 经 过 实例 分 析 ， 本 文 所 提出 的 
模型 能 够 有 效 反 映 数据 的 隐 , 私 量 和 数 ; 居 效 用 的 变化 ， 也 可 以 
作为 隐私 保护 程度 和 数据 效用 两 者 之 间 博 弈 的 量化 方法 。 
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